Sora 都关停了，AI 还怎么理解真实世界？

2025年9月30日的时候，Sora再次更新，迎来了升级版Sora2，当时凭借着生成视频的流畅、连贯，一度让人产生了一种错觉，AI似乎已经不仅仅只是会画图、写字，而是开始理解现实世界。

但戏剧性的是，Sora2的故事并没有沿着实现AGI的方向一路狂飙。在2026年4月26日，在毫无征兆的情况下，OpenAI宣布关闭Sora的APP以及网页版本，这短短的几个月，经历了巨大的变化。这一幕仿佛是给AI热潮按下了暂停键。

Sora刚发布出来的时候，OpenAI还特意撰写一篇雄心勃勃的技术文章《Video generation models as world simulators》。将视频生成模型视作世界模拟器，也把这种模型视为通往AGI的关键步骤。因为Sora不仅仅是把文字变成视频，更像是在学习一个世界如何运转，物体是如何移动，镜头如何变化，人物如何与环境互动。也正是如此，Sora被很多人视为从文生视频工具走向世界模型的一个标志性节点。

当时的Sora几乎就是处于文生视频领域的统治地位。

在Sora推出之前的早期文生视频模型最大的问题，并不是“不能生成视频”，而是它们只是学会了让画面动起来，却还没有真正理解世界如何运转,人物会变形，手指会乱长，物体会凭空出现又消失，前一秒还是同一个人，后一秒就变成另一张脸。更复杂的动作，比如吃东西、走路、拿东西、转身，常常会因为缺乏物理和空间理解而显得非常怪异。

ModelScope Text-to-Video 工具生成

来自于Meta AI 2022

Sora宣传视频

也正因如此，“人物吃东西”这类场景一度成了观察文生视频能力的直观标准。它考验的不只是画面是否清晰，而是模型是否真的能维持物体、动作、因果关系和时间连续性。而 Sora 诞生的意义就在这里。它让人们第一次如此明显地感觉到，AI 视频不再只是把一帧帧漂亮画面拼接起来，而像是在尝试学习一个世界如何连续地运行。人物如何移动，物体如何受力，镜头如何推进，场景如何保持一致——这些原本属于“现实世界规则”的东西，开始在生成视频中显现出来。

这也是为什么Sora会被许多人视为世界模型的雏形。它真正令人震撼的地方，并不只是视频更清晰、更逼真，而是它似乎展现出了一种更深层的能力，在时间中维持物体、动作、空间和因果关系的连续性，仿佛正在学习现实世界如何运行。

那什么是世界模型？为什么其又被称为世界模拟器？

世界模型（World Model）是一种让人工智能在内部建立“虚拟世界”的能力。通俗地说，它让 AI 像人类一样去预测环境的下一步变化，不仅知道物体是什么，还能理解物体如何运动、如何与周围环境互动。

传统的大模型（如语言模型或图像生成模型）主要关注“内容生成”，预测下一个词，生成一张图片。而世界模型关注的是动态变化和因果关系，如果一个人把杯子推向桌边，杯子可能会掉落；如果一个小球从斜坡滚下，它会沿着物理规律移动。AI 在内部模拟这些变化，就形成了它的“认识”。

世界模型概念图

由于世界模型本质上是在AI 内部建立一个可预测环境的模拟器，它也被称为“世界模拟器（World Simulator）”。在这个模拟器中，AI 可以先“试验”不同操作的结果，然后选择最优行动策略。这种能力在机器人控制、自动驾驶、游戏智能和文生视频等领域都有潜在应用。

Sora 和类似的文生视频模型是世界模型概念的直观体现，通过生成连续的视频，模型不仅学习了画面特征，还在某种程度上学习了物体运动规律和场景连贯性。

但想要得到一个真正的“世界模拟器”，并非易事。它不仅需要生成视觉上逼真的画面，更必须理解当前世界的状态——知道物体在空间中在哪里，它们之间的关系，以及可能的交互方式。更重要的是，它还要预测未来可能发生的变化，并在内部模拟不同的行动结果。换句话说，它像人类在做决策前，在脑海中“预演”不同场景，然后选择最合适的行动。这样的能力，远超普通的图像生成或视频生成，它要求AI具备多维度的世界理解能力。

而在迈向世界模型的过程中，文本生成视频模型又几乎是最自然的起点。

原因很简单，视频本身就是世界运行的记录。它不像图片那样只定格某一瞬间，而是把物体的运动、人物的交互、场景的变化，以及事件之间的因果关系，都压缩在一帧又一帧的连续画面里。一个人走路时身体如何摆动，一辆车转弯时轨迹如何变化，一个物体被推动后如何移动——这些现实世界的规律，都被隐含地写进了视频数据中。

而文本则像是一种指令，为模型提供生成目标和行为方向。它告诉模型，这个场景里有什么，人物在做什么，物体应该如何运动，环境又是什么状态。

当一个模型经过了在海量视频数据上的预训练时，它学到的并不只是“如何生成一段好看的视频”。更重要的是，它开始捕捉世界在时间维度中连续展开的规律，物体不能凭空出现或随意消失，人物动作需要前后衔接，空间结构必须保持稳定，光影和视角变化也要符合基本的物理直觉。甚至在更复杂的场景中，事件之间还需要具有一定的因果逻辑——比如球被推了一下才会滚动，杯子受到碰撞才可能倒下。

不过，要让AI真正生成一段连续、稳定、符合常识的视频，并不是简单地把多张图片连在一起。模型需要同时处理文字理解、视觉生成、时间一致性、运动建模以及空间结构保持等多个问题。于是，围绕“如何让视频自然地动起来”，不同的技术路线逐渐发展出来。对于文本生成视频模型来说，主要的技术流派可以分为三种

生成对抗网络

——让模型在“真假博弈”中学会生成视频

早期视频生成模型很大程度上受到 GAN 的影响，它可以理解为一场“生成器”和“判别器”之间的真假博弈，生成器负责制造视频，判别器负责判断视频是真实数据还是模型生成。生成器不断尝试骗过判别器，判别器则不断提升辨别能力，二者在对抗中共同进步。在视频生成中，早期 GAN 方法通常会将视频拆分为内容和运动两部分，内容对应人物、物体和背景等相对稳定的信息，运动则描述它们随时间发生的变化。不过，GAN 的训练过程往往不够稳定，也容易出现模式崩溃。再加上视频比图像多了时间维度，模型不仅要生成真实画面，还要保证前后帧连续一致，因此 GAN 在长视频生成、复杂运动建模和精确文本控制方面仍面临较大挑战。

扩散模型

——噪声中一步步“还原”视频

相比于第一类的GAN一步到位的视频生成路线，扩散模型采用的是逐步生成的方式。在训练阶段，给图像逐步添加噪声，让模型学会清除噪声的能力；而在生成阶段，则从随机噪声开始，一步步去除噪声，最终生成符合于文本描述的视频。这种生成视频的方法是目前的主流路线。扩散模型的优势很明显，生成质量高、细节丰富、语义控制能力强，也更容易和文本编码器、图像生成模型、视频超分辨模块结合。因此，现在很多高质量文生视频系统都与扩散模型有关。相比于对抗性神经网络，扩散模型生成视频的时间以及帧率更高，但由于扩散模型需要进行多步迭代，导致其所需要的生成时间较长，计算成本也会更高。

自回归视频模型

——像写文章一样，一步步预测下一帧

它的思想和 GPT 写文字非常相似，GPT 会根据前面已经出现的词来预测下一个词，而自回归视频模型则会根据前面已经生成的图像帧或者是视频token，继续预测后面的画面。也就是说，它不是一次性生成完整视频，而是按照时间顺序一步步“续写”视频内容。前面的画面会为后面的生成提供上下文，例如人物的位置、动作方向、场景结构和物体状态都需要被延续下去。因此，自回归模型天然适合建模视频中的时间关系和动作连续性。不过，这种方法也有明显局限，由于视频需要逐步生成，速度通常较慢。如果前面某一步生成出错，后续内容也可能受到影响，导致误差不断累积。总体来说，自回归模型就像是在写一篇动态故事，它擅长根据已有内容推演后续发展，但也需要解决效率和长期稳定性的问题。

因此，无论是训练还是部署一个文生视频模型，都意味着巨大的算力成本。据公开资料，训练一个 11B 参数规模的开源视频模型 Open-Sora 2.0，成本可能达到约 20 万美元。而对于参数规模更大、训练数据更多、推理服务更复杂的闭源商业模型而言，实际投入往往只会更高。也正是在这样的背景下，文生视频模型的商业化和持续运行问题变得格外值得思考。它提醒我们，通向世界模型的道路，并不只是不断追求更震撼的生成效果。一个真正可用的世界模型，不仅要能够生成清晰、连续、符合物理直觉的视频世界，还必须能够以可接受的成本被部署和长期运行。

如果一个模型只能在极高算力消耗下生成短暂片段，那么它距离真正可交互大规模应用的世界模拟器，仍然还有很长一段距离。

1.Train and Run Open-Sora 2.0 on HPC-AI.COM: State-of-the-Art Video Generation at a Fraction of the Cost Ha D, Schmidhuber J. World models[J]. arXiv preprint arXiv:1803.10122, 2018, 2(3): 440.

CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

2.Brooks T, Peebles B, Holmes C, et al. Video generation models as world simulators[J]. OpenAI Blog, 2024, 1(8): 1. Bruce J, Dennis M D, Edwards A, et al. Genie: Generative interactive environments[C]//Forty-first International Conference on Machine Learning. 2024.

3.Tulyakov S, Liu M Y, Yang X, et al. Mocogan: Decomposing motion and content for video generation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 1526-1535.

4.Li Y, Min M, Shen D, et al. Video generation from text[C]//Proceedings of the AAAI conference on artificial intelligence. 2018, 32(1).

5.Ho J, Salimans T, Gritsenko A, et al. Video diffusion models[J]. Advances in neural information processing systems, 2022, 35: 8633-8646.